Tensor Core(张量计算核心)是由
NVIDIA研发的新型处理
核心,Tensor Core(张量计算核心)可实现混合精度计算,并能根据精度的降低动态调整
算力,在保持准确性的同时提高
吞吐量。
技术介绍
Tensor Core 可实现混合精度计算,并能根据精度的降低动态调整算力,在保持准确性的同时提高吞吐量。新一代 Tensor Core 扩大了这种加速的应用范围,覆盖
AI 和
HPC 领域的各种工作负载。NVIDIA Tensor Core 向所有工作负载提供了新功能,将 Tensor Float 32(TF32,一种革命性的新精度)下的
AI 训练速度加快 10 倍,并将 FP64 下的高性能计算 (HPC) 速度加快 2.5 倍。
Tensor Core在NVIDIA的Volta、Turing和Ampere GPU架构中均有配备,其中Ampere架构中的Tensor Core为第三代Tensor Core。NVIDIA Tensor Core 技术助力 AI 实现了大幅加速,将训练时间从数周缩短到几小时,显著加快了推理速度。
发展历史
第一代Tensor Core——NVIDIA Volta架构
2017年5月发布的NVIDIA Volta架构中的第一代 Tensor Core 专为
深度学习而设计,通过 FP16 和 FP32 下的混合精度
矩阵乘法提供了突破性的性能 – 与 NVIDIA Pascal 相比,用于训练的峰值 teraFLOPS (TFLOPS) 性能提升了高达 12 倍,用于推理的峰值 TFLOPS 性能提升了高达 6 倍。这项关键功能使 Volta 提供了比
Pascal 高 3 倍的训练和推理性能。
第二代Tensor Core——NVIDIA Turing架构
2018年8月发布的NVIDIA Turing Tensor Core 技术能进行多精度计算,可实现高效的 AI 推理。Turing Tensor Core 提供了一系列用于深度学习训练和推理的精度(从 FP32 到 FP16 再到 INT8 和 INT4),性能远超 NVIDIA Pascal GPU。Turing架构也首次在消费级GeForce产品线上配备Tensor Core,另GeForce RTX 20系列显卡具备了全新的AI硬件加速计算能力。
第三代Tensor Core——NVIDIA Ampere架构
2020年5月发布的NVIDIA Ampere 架构带来性能的提升,提供了新的精度,可覆盖研究人员需要的全系列精度(TF32、FP64、FP16、INT8 和 INT4),从而加速和简化 AI 的采用,并将 NVIDIA Tensor Core 的强大功能扩展到 HPC 领域。
第四代Tensor Core——Ada Lovelace架构
2022年9月20日,NVIDIA 于 GTC 2022 发布了采用了Ada Lovelace架构的 RTX40系列 GPU。自推出 Tensor Core 技术以来,NVIDIA GPU 的峰值性能提高了 60 倍,推动了 AI 和 HPC 计算的普及化。NVIDIA Hopper™ 架构利用 Transformer 引擎改进第四代 Tensor Core,该引擎使用新的 8 位浮点精度 (FP8),可为万亿参数模型训练提供比 FP16 高 6 倍的性能。Hopper Tensor Core 使用 TF32、FP64、FP16 和 INT8 精度,将性能提升 3 倍,能够加速处理各种工作负载。
NVIDIA Tensor Core 推动并加快了 AI 技术的变革,包括 NVIDIA DLSS 以及可让帧率更大幅提升的全新 NVIDIA DLSS 3。
Ada Lovelace的全新第四代 Tensor Core 吞吐量提升 4 倍,达到1.4 Tensor-petaFLOPS。
在游戏中的应用
NVIDIA DLDSR:2021年1月NVIDIA发布了基于AI的DLDSR(Deep Learning Dynamic Super Resolution)技术,在硬件上以NVIDIA GPU Tensor Core作为支撑,在DSR的基础上增加AI能力,可以给玩家带来更加真实流畅的画质体验。GeForce RTX 20、RTX 30系显卡都支持该技术。DSR技术、DLDSR技术都是通过高分辨率进行渲染,再压缩到屏幕原生分辨率输出,可以增强画面细节,让边缘更平滑,锯齿更少,减少炫光。DLDSR加入了AI网络层,需要输入的像素更少,所以可以输出更高的帧率。DLDSR技术不需要游戏进行特殊优化,大多数游戏都支持,并且该技术会直接集成到驱动中。